Сигмоидное масштабирование делает RL пост-тренинг предсказуемым для LLM
'Новое исследование показывает, что прогресс RL пост-тренинга следует сигмоидным кривым, и предлагает ScaleRL — рецепт, подтверждённый до 100k GPU-часов для предсказуемого масштабирования LLM.'